Emergent of Complexity via Multi-Agent Competition
複雑な環境は作成が困難
マルチエージェントの競合学習
シンプルな環境で複雑な行動を創発させられる
競合的タスク
Run to Goal:相手より早く正面のゴールに到達する
You Shall Not Pass:片方はゴールをめざし、片方は阻止する
Sumo:相手をステージの外に出すか、ステージ上に倒す(相撲)
Kick and Defend:サッカーのPK
シンプルな環境でも、非常に複雑な行動が創発される可能性がある
たとえば囲碁の環境とルールは単純だが、勝つためには非常に複雑な戦略が必要
環境の複雑性がエージェントに依存するため,エージェントの学習が進むにつれて環境がより複雑になる
同等の強さのエージェントと対戦(またはself-play)させることにより、エージェントの実力に関係なく適切な難易度のタスクを提供できる
カリキュラム学習
https://sites.google.com/view/multi-agent-competition
Emergent Complexity via Multi-Agent Competition
Trapit Bansal, Jakub Pachocki, Szymon Sidor, Ilya Sutskever, Igor Mordatch
OpenAI
(Submitted on 10 Oct 2017 (v1), last revised 14 Mar 2018 (this version, v3))
https://arxiv.org/abs/1710.03748